
# VLLM 部署 Qwen1.5-0.5B-Chat
python3 -m vllm.entrypoints.openai.api_server --served-model-name Qwen1.5-4B-Chat --model /b4-ai/share_model_zoo/LLM/Qwen/Qwen1.5-4B-Chat --max-model-len 8192